package io.closes.Utils.MaskWord;

import org.junit.Test;

import java.util.HashSet;
import java.util.Iterator;
import java.util.Map;
import java.util.Set;

/**
 * @version 1.0
 * @Description: 敏感词过滤
 * @Project：test
 * @Author : chenming
 * @Date ： 2014年4月20日 下午4:17:15
 */
public class SensitivewordFilter {
    @SuppressWarnings("rawtypes")
    private Map sensitiveWordMap = null;
    public static int minMatchTYpe = 1;      //最小匹配规则
    public static int maxMatchType = 2;      //最大匹配规则

    /**
     * 构造函数，初始化敏感词库
     */
    public SensitivewordFilter() {
        sensitiveWordMap = new SensitiveWordInit().initKeyWord();
    }

    /**
     * 判断文字是否包含敏感字符
     *
     * @param txt       文字
     * @param matchType 匹配规则&nbsp;1：最小匹配规则，2：最大匹配规则
     * @return 若包含返回true，否则返回false
     * @author chenming
     * @date 2014年4月20日 下午4:28:30
     * @version 1.0
     */
    public boolean isContaintSensitiveWord(String txt, int matchType) {
        boolean flag = false;
        for (int i = 0; i < txt.length(); i++) {
            int matchFlag = this.CheckSensitiveWord(txt, i, matchType); //判断是否包含敏感字符
            if (matchFlag > 0) {    //大于0存在，返回true
                flag = true;
            }
        }
        return flag;
    }

    /**
     * 获取文字中的敏感词
     *
     * @param txt       文字
     * @param matchType 匹配规则&nbsp;1：最小匹配规则，2：最大匹配规则
     * @return
     * @author chenming
     * @author2 ChanAn
     * @date 2014年4月20日 下午5:10:52
     * @version 1.0
     */
    public Set<String> getSensitiveWord(String txt, int matchType) {
        Set<String> sensitiveWordList = new HashSet<String>();

        for (int i = 0; i < txt.length(); i++) {
            //如果是特殊字符则不进行检查，跳过即可
            char word = txt.charAt(i);

            if ((word >= ':' && word <= '@') || (word <= '/') || (word >= '[' && word <= '`') || (word >= '{' && word <= 127/*DEL (delete)*/)) {
                continue;
            }

            int length = CheckSensitiveWord3(txt, i, matchType);    //判断是否包含敏感字符
            if (length > 0) {    //存在,加入list中
                sensitiveWordList.add(txt.substring(i, i + length));
                i = i + length - 1;    //减1的原因，是因为for会自增
            }
        }

        return sensitiveWordList;
    }

    /**
     * 替换敏感字字符
     *
     * @param txt
     * @param matchType
     * @param replaceChar 替换字符，默认*
     * @author chenming
     * @date 2014年4月20日 下午5:12:07
     * @version 1.0
     */
    public String replaceSensitiveWord(String txt, int matchType, String replaceChar) {
        String resultTxt = txt;
        Set<String> set = getSensitiveWord(txt, matchType);     //获取所有的敏感词
        Iterator<String> iterator = set.iterator();
        String word = null;
        while (iterator.hasNext()) {
            word = iterator.next();  //敏感词
//			replaceString = getReplaceChars(replaceChar, word.length());
            resultTxt = resultTxt.replaceAll(word, replaceChar);
        }

        return resultTxt;
    }

    /**
     * 获取替换字符串
     *
     * @param replaceChar
     * @param length
     * @return
     * @author chenming
     * @date 2014年4月20日 下午5:21:19
     * @version 1.0
     */
    private String getReplaceChars(String replaceChar, int length) {
        String resultReplace = replaceChar;
        for (int i = 1; i < length; i++) {
            resultReplace += replaceChar;
        }

        return resultReplace;
    }

    /**
     * 检查文字中是否包含敏感字符，检查规则如下：<br>
     *
     * @param txt
     * @param beginIndex
     * @param matchType
     * @author chenming
     * @date 2014年4月20日 下午4:31:03
     * @return，如果存在，则返回敏感词字符的长度，不存在返回0
     * @version 1.0
     */
    @SuppressWarnings({"rawtypes"})
    public int CheckSensitiveWord(String txt, int beginIndex, int matchType) {
        boolean flag = false;    //敏感词结束标识位：用于敏感词只有1位的情况
        int matchCount = 0;     //匹配标识数默认为0
        char word = 0;
        Map nowMap = sensitiveWordMap;
        for (int i = beginIndex; i < txt.length(); i++) {
            word = txt.charAt(i);

            if ((word >= ':' && word <= '@') || (word <= '/') || (word >= '[' && word <= '`') || (word >= '{' && word <= 127/*DEL (delete)*/)) {
                continue;
            }

//			if (null == befornewMap){
//				befornewMap = nowMap;
//			}
//			nowMap = (Map) nowMap.get(word);     //获取指定key
            Map teMap = (Map) nowMap.get(word);
            if (teMap != null) {     //存在，则判断是否为最后一个
                matchCount++;     //找到相应key，匹配标识+1
                if ("1".equals(teMap.get("isEnd"))) {       //如果为最后一个匹配规则,结束循环，返回匹配标识数
                    flag = true;       //结束标志位为true
                    if (matchCount >= matchType) {    //最小规则，直接返回,最大规则还需继续查找
                        matchCount = i - beginIndex + 1;
                        break;
                    }
                }
                nowMap = teMap;
            } else {
                if ((i + 2) >= txt.length()) {
                    matchCount = i - beginIndex;
                    break;
                }
                Map nextMap = (Map) nowMap.get(txt.charAt(i + 1));
                if (null == nextMap) {
                    Map nextNextMap = (Map) nowMap.get(txt.charAt(i + 2));
                    if (null == nextNextMap) {//连续两个词都不存在（去掉两个干扰词） 才返回
                        matchCount = i - beginIndex;
                        break;
                    }
                }
            }
        }
        if (matchCount < 2 || !flag) {        //长度必须大于等于1，为词
            matchCount = 0;
        }
        return matchCount;
    }

    @SuppressWarnings({"rawtypes"})
    public int CheckSensitiveWord2(String txt, int beginIndex, int matchType) {
        boolean flag = false;    //敏感词结束标识位：用于敏感词只有1位的情况
        int matchFlag = 0;     //匹配标识数默认为0
        char word = 0;
        Map nowMap = sensitiveWordMap;
        for (int i = beginIndex; i < txt.length(); i++) {
            word = txt.charAt(i);
            nowMap = (Map) nowMap.get(word);     //获取指定key
            if (nowMap != null) {     //存在，则判断是否为最后一个
                matchFlag++;     //找到相应key，匹配标识+1
                if ("1".equals(nowMap.get("isEnd"))) {       //如果为最后一个匹配规则,结束循环，返回匹配标识数
                    flag = true;       //结束标志位为true
                    if (SensitivewordFilter.minMatchTYpe == matchType) {    //最小规则，直接返回,最大规则还需继续查找
                        break;
                    }
                }
            } else {     //不存在，可能是干扰词

                break;
            }
        }
        if (matchFlag < 2 || !flag) {        //长度必须大于等于1，为词
            matchFlag = 0;
        }
        return matchFlag;
    }


    /**
     * 检查文字中是否包含敏感字符，检查规则如下：<br>
     *
     * @param txt
     * @param beginIndex
     * @param matchType
     * @author chenming
     * @author2 ChanAn
     * @date 2014年4月20日 下午4:31:03
     * @return，如果存在，则返回敏感词字符的长度，不存在返回0
     * @version 1.0
     */
//    @SuppressWarnings({"rawtypes"})
    public int CheckSensitiveWord3(String txt, int beginIndex, int matchType) {
        boolean flag = false;    //敏感词结束标识位：用于敏感词只有1位的情况
        int matchCount = 0;     //匹配标识数默认为0
        char word;
        Map nowMap = sensitiveWordMap;

        int charMatchCount = 0; //匹配粒度,大于等于四个后才会使用干扰词机制

        Boolean firstInterrupt = true; //只判断干扰一次
        int len = txt.length();

        for (int i = beginIndex; i < len; i++) {
            word = txt.charAt(i);

            if  ((word >= ':' && word <= '@') || (word <= '/') || (word >= '[' && word <= '`') || (word >= '{' && word <= 127/*DEL (delete)*/)) {
                if (i == beginIndex){ //首字母为特殊字符时，直接break
                    break;
                }
                firstInterrupt = false;
                continue;
            }
            //全部转为小写字符
            if ((word >= 65 && word <= 90)){
                word += 32;
            }

            Map teMap = (Map) nowMap.get(word);

            if ((beginIndex == i) && teMap == null){ //首字符未命中
                break;
            }

            if (teMap != null) {     //存在，则判断是否为最后一个
                matchCount++;     //找到相应key，匹配标识+1
                charMatchCount++;
                if ("1".equals(teMap.get("isEnd"))) {       //如果为最后一个匹配规则,结束循环，返回匹配标识数
                    flag = true;       //结束标志位为true
                    if (matchCount >= matchType) {    //最小规则，直接返回,最大规则还需继续查找
                        matchCount = i - beginIndex + 1;
                        break;
                    }
                }
                nowMap = teMap;
            } else {
                if (charMatchCount >= 4){
                    if (firstInterrupt){//第一次干扰-->才会判定干扰词
                        firstInterrupt = false;

                        if (i + 1 < len){
                            Map nextMap = (Map) nowMap.get(txt.charAt(i + 1));
                            if (null == nextMap) {
                                break;
                            }
                        }

                    }
                }else {
                    break;
                }

            }
        }
        if (matchCount < 2 || !flag) {        //长度必须大于等于1，为词
            matchCount = 0;
        }
        return matchCount;
    }

 /*   public static void main(String[] args) {
        SensitivewordFilter filter = new SensitivewordFilter();

        System.out.println("敏感词的数量：" + filter.sensitiveWordMap.size());
        String string = "太多的伤感情怀也许只局限于饲养基地 荧幕中的情节，主人公尝试着去用某种方式渐渐的很潇洒地释自杀指南怀那些自己经历的伤感。"
                + "然后法轮功 我们的扮演的角色就是跟随着主人公的喜红客联盟 怒哀乐而过于牵强的把自己的情感也附加于银幕情节中，然后感动就流泪，"
                + "难过就躺在某一个人的怀里尽情的阐述心扉或者手机卡复制器一个人一杯红酒一部电影在夜三级片 深人静的晚上，关上电话静静的发呆着。";
        System.out.println("待检测语句字数：" + string.length());
        long beginTime = System.currentTimeMillis();
        Set<String> set = filter.getSensitiveWord(string, 1);
        long endTime = System.currentTimeMillis();
        System.out.println("语句中包含敏感词的个数为：" + set.size() + "。包含：" + set);
        System.out.println("总共消耗时间为：" + (endTime - beginTime));


    }*/

    @Test
    public void replaceSensitiveWordFilter() {
        new SensitivewordFilter();

//        String string = "hahacrotopmophilia";
//        String string = "bb5www I  am a goodBoy! زب ssbbw";
//        String string = "bbw";
//        String string = "xx  زب!زب";
//        string = StringUtils.reverse(string);

//
//        String string1 = "bb       w hahahahahahahacrotopmophilia autoeroticc aballsucking bbw beaners شرموطةa 2 " +
//                " acrotomopphilia autoeroticc aballsucking bb5w beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصاب" +
//                "acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصاب" +
//                "acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصاب" +
//                "acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصاب" +
//                "acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصابacrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصابapple اoringeغتصابشرموطة" +
//                "" +
//                "acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصاببيضانعرص1 قحبة لبوة اغتصاب" + "acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 " +
//                " acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصاب" +
//                "acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصاب" +
//                "acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصاب" +
//                "acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصاب" +
//                "acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصابacrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصابapple اoringeغتصابشرموطة" +
//                "" +
//                "acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصاببيضانعرص1 قحبة لبوة اغتصاب" + "acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 " +
//                " acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصاب" +
//                "acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصاب" +
//                "acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصاب" +
//                "acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصاب" +
//                "acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصابacrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصابapple اoringeغتصابشرموطة" +
//                "" +
//                "acrotomophilia autoeroticc aballsucking bbw beaners شرموطةa 2 بيضانعرص1 قحبة لبوة اغتصاببيضانعرص1 قحبة لبوة اغتصاب bb5w";

//
//        //执行20次，取平均值
//
//        long beginTime = System.currentTimeMillis();
//        for (int i = 0; i < 20000; i++) {
//            replaceSensitiveWord(string1, 2, "*");
//        }
//        long endTime = System.currentTimeMillis();
//
//        System.out.println("平均耗时：" + (endTime - beginTime)/20000.0 + "ms");


        String sTest = "tit";
        String sTest2 = replaceSensitiveWord(sTest, 2, "***");
        System.out.println(sTest2);

    }
}
